ViGA:一种介于强弱监督之间的视频片段检索范式
本期作者
崔然,人工智能平台部,算法实习生,主要负责B站视频内容理解算法的最新算法研究和技术影响力。
引言
bilibili人工智能平台部在为主站提供AI技术支持以外,也致力于视频前沿算法的研究。我们的工作 "Video Moment Retrieval from Text Queries via Single Frame Annotation" 以四个 reviewer 全部通过的成绩中稿了SIGIR 2022。文章主要的贡献是提出了一个基于帧级别标注的视频片段检索的新范式,以及针对该范式提出了一个效果不错的对比学习框架。这里提供一个tl;dr版的简介,欢迎感兴趣的同学参考。
目前项目所用到的 annotations ,codes 以及预训练 models 已经全部开源,相关链接如下:
论文链接:https://arxiv.org/abs/2204.09409
代码链接:https://github.com/r-cui/ViGA
1. 视频片段检索任务介绍
Video Moment Retrieval (VMR) 任务是从一个视频 中根据一个自然语言描述 找出与其语义对应的片段 。在现有文献中这个任务并没有一个绝对统一的名字,一些变体比如 VideoMoment (Event / Temporal) Retrieval (Grounding / Localization / Relocalization) 也常常被使用。
VMR 任务。图源 Lan et. al, A Survey On Temporal Sentence Grounding
VMR 任务的前身是 Video Action Localization (VAL),区别在于 VAL 定位的目标是预定义的行为类别,而 VMR 的定位目标变成了无限可能的自然语言。由此可以认为 VMR 是更难的一个任务。2017年,两篇文章[1][2]同时开启了 VMR 的探索。自然而然,VMR 的研究一开始使用的是全监督范式,即数据集每个样本包括 。由于对于长视频的时序标注成本过高,并且标出精确的起止时间本身具有主观歧义性(很多情况下很难精准的给出动作边界),弱监督 VMR 在2019年被首次提出[3],其中每个样本仅包括 ,即只需要视频与 query 的对应关系,不需要显式标注起止时间。由于缺乏时序标注,弱监督 VMR在方法上多采用对比学习来进行训练,proposal 来进行推理。目前为止两个领域都有了较为充足的文章,比较明显的一个趋势是,全监督性能好但标注成本高,弱监督成本低但效果也差很多。
2. Glance Supervised VMR
然而仔细思考会发现,考虑弱监督下的标注实际情况,为了提供训练样本 ,标注人终归还是需要去观看视频才能写下 。既然如此,为什么不简单的顺便记录下观看过的随意一帧?辅以适当的 GUI 的话,这不过是一次鼠标点击的开销。以此为灵感,我们提出 Glance Supervised VMR,在此设定下,每个样本包括 。其中 即为 “glance",指标注人记录下的 ta观看过的任意位置的时间戳。在标注过程中,标注人在其发现已看内容足以写下 的时候,可以暂停在已观看片段的任意一帧,并记录下这个时间。
三种监督信号的比较
不难发现,相较弱监督 VMR,Glance Supervised VMR 只增加了的标注成本,但却提供了额外的信息;相较于全监督 VMR,由于标注者可以快速拖动浏览全视频并任意点击片段内的一帧,大量节约了标注时间成本,也避免了边界确定可能存在的歧义。
3. 基于对比学习的框架 ViGA
在上述设定下,我们提出一个简单的方法来进行初步探索,命名为 Video moment retrieval via Glance Annotation (ViGA)。由于 Glance Supervised VMR 仍然不含有完整的起止时间标注,我们并不可能为之设计端到端的模型。所以,作为此设定下的第一篇文章,我们沿用了弱监督方法中广泛采纳的对比学习思路,同样的也区分开了训练和推理的流程。
训练
基于 vision-language 对比学习的模型总体训练框架
由于没有具体的时序信息来提供监督信号,我们只能最大化利用已知的 对应关系,让模型学习到视觉和语言两个模态的深度表征,使得语义相近的 距离近而语义有别的 距离远,从而适配后续的“切割视频提出很多 proposal 并选择对 相似度最高的那一个作为输出”这一推理策略。这是一个典型的自监督对比学习的思路。
然而,有别于弱监督 VMR,在 glance 设定下如何利用这关键的一帧所提供的信息是关键所在。这里我们利用一个基本假设:对于一段长视频来说,离 glance 越近的片段,属于该 query 的概率越大。因此,为了建模该假设,我们对于上述提到的基于整段视频的对比学习做出了一些改进。我们将原视频用一定大小的sliding window切分成了多个clip,也就是把视频层面上的学习 细化为片段层面的学习 ,再根据glance的位置通过高斯先验为每一个 clip 赋予不同的权重。
一个 batch 内的对比学习策略
在这种设计下,我们用片段层面的 InfoNCE loss 来驱动训练。此外,由于模型的 encoding 模块利用了 attention,我们额外设计了一个 attention loss 来迫使模型在 encoding 过程中更加注意到 glance 及其周边位置。
推理
在推理过程中,我们也相应优化了提出 proposal 的策略。相比于直接用 sliding window 的做法,我们利用模型已训练得到的注意力能力,选取在视频上得到 attention 最多的位置作为锚点,并在锚点周边生成大小不一的各样 proposal,采取与 相似度最高的一个作为输出。
推理过程中对于生成 proposal 的优化策略
4. 实验结果
在实验上,我们选取了三个最常用的 VMR 的数据集:Charades-STA、ActivityNet Captions 以及 TACoS。实验结果显示,ViGA 的效果好于 SOTA 级别的弱监督方法,并与部分全监督方法相当。由于是第一篇工作,基于主要为了快速验证 glance supervision 是否有效,我们设计的方法是比较初步并粗糙的。希望大家可以在这个 setting 上提出一些有意思的方法。
5. 一些可视化样例
两个成功案例 + 一个失败案例